Dữ liệu là gì? Các công bố khoa học về Dữ liệu

Dữ liệu là một tập hợp các thông tin, số liệu, sự kiện, quá trình hay kết quả thu thập từ các nguồn khác nhau. Dữ liệu có thể tồn tại dưới dạng văn bản, số, hìn...

Dữ liệu là một tập hợp các thông tin, số liệu, sự kiện, quá trình hay kết quả thu thập từ các nguồn khác nhau. Dữ liệu có thể tồn tại dưới dạng văn bản, số, hình ảnh, âm thanh, video hoặc bất kỳ định dạng nào khác. Dữ liệu được sử dụng để phân tích, xử lý, lưu trữ, truyền tải hay sử dụng cho mục đích nghiên cứu, quản lý và ra quyết định.
Dữ liệu là một tập hợp các thông tin và thông số có thể thu thập được từ nhiều nguồn khác nhau. Nó có thể tồn tại dưới nhiều dạng khác nhau như văn bản, số, hình ảnh, âm thanh, video, tệp tin hoặc cơ sở dữ liệu.

Dữ liệu có thể thu thập từ nhiều nguồn khác nhau như các cuộc khảo sát, thí nghiệm, hồ sơ bệnh án, truy vấn cơ sở dữ liệu, thiết bị cảm biến, mạng xã hội, trang web, v.v. Dữ liệu thu thập có thể là dữ liệu số (như số liệu thống kê, thông tin tài chính, dữ liệu khoa học) hoặc dữ liệu phi số (như văn bản, hình ảnh).

Dữ liệu đóng vai trò quan trọng trong nhiều lĩnh vực và hoạt động khác nhau. Chẳng hạn, trong lĩnh vực kinh doanh, dữ liệu được sử dụng để phân tích thị trường, dự đoán xu hướng, tối ưu hóa quy trình sản xuất và quản lý khách hàng. Trong lĩnh vực y tế, dữ liệu giúp theo dõi sức khỏe cá nhân, nghiên cứu bệnh lý và cải thiện chẩn đoán và điều trị.

Dữ liệu có thể được xử lý, phân tích, lưu trữ và truyền tải bằng cách sử dụng các phương pháp và công nghệ phổ biến như máy tính, cơ sở dữ liệu, các ngôn ngữ lập trình, học máy và trí tuệ nhân tạo. Công nghệ thông tin và khoa học dữ liệu đã phát triển nhanh chóng trong thời gian gần đây, mở ra nhiều cơ hội mới cho khai thác và sử dụng dữ liệu.
Dữ liệu có hai loại cơ bản là dữ liệu cấu trúc và dữ liệu phi cấu trúc.

Dữ liệu cấu trúc là dữ liệu có tổ chức rõ ràng và được tổ chức thành các bảng, hàng và cột. Dữ liệu cấu trúc thường được lưu trữ trong các cơ sở dữ liệu quan hệ và có thể truy vấn bằng ngôn ngữ truy vấn SQL. Ví dụ về dữ liệu cấu trúc bao gồm dữ liệu học sinh trong một trường học, dữ liệu bán hàng của một cửa hàng, hoặc dữ liệu tài chính của một công ty.

Dữ liệu phi cấu trúc là dữ liệu không có cấu trúc định sẵn và không tổ chức theo mô hình bảng hay cột. Ví dụ về dữ liệu phi cấu trúc bao gồm văn bản, email, tệp tin đa phương tiện (hình ảnh, video, âm thanh), dữ liệu từ các mạng xã hội và các trang web. Dữ liệu phi cấu trúc thường phức tạp hơn và khó khai thác hơn dữ liệu cấu trúc. Để phân tích và sử dụng dữ liệu phi cấu trúc, thường cần sử dụng các công cụ và kỹ thuật xử lý dữ liệu phi cấu trúc như xử lý ngôn ngữ tự nhiên, khai phá dữ liệu và học máy.

Dữ liệu cũng có đặc điểm về ý nghĩa (semantic) và chất lượng (quality). Ý nghĩa của dữ liệu liên quan đến sự hiểu biết và nghĩa vụ của dữ liệu, bao gồm cú pháp, ngữ nghĩa và tác động của dữ liệu lên ngữ cảnh sử dụng. Chất lượng của dữ liệu bao gồm độ chính xác, độ hoàn thiện, tính nhất quán, tính sẵn có và độ tin cậy của dữ liệu.

Dữ liệu cũng có thể được phân loại dựa trên quy mô, độ lớn và tính phân tán. Điều này liên quan đến cách dữ liệu được tổ chức và xử lý. Dữ liệu có thể được phân thành dữ liệu nhỏ (small data), dữ liệu lớn (big data), dữ liệu phân tán (distributed data), v.v.

Dữ liệu là yếu tố cơ bản để đưa ra quyết định thông minh và phát triển các ứng dụng học máy và trí tuệ nhân tạo. Quá trình thu thập, lưu trữ, quản lý và xử lý dữ liệu được gọi là quy trình dữ liệu (data pipeline).

Danh sách công bố khoa học về chủ đề "dữ liệu":

Trimmomatic: một công cụ cắt linh hoạt cho dữ liệu chuỗi Illumina Dịch bởi AI
Bioinformatics - Tập 30 Số 15 - Trang 2114-2120 - 2014
Tóm tắt

Động lực: Mặc dù đã có nhiều công cụ xử lý dữ liệu đọc từ giải trình tự thế hệ mới (NGS), chúng tôi vẫn không tìm thấy công cụ nào hoặc sự kết hợp của các công cụ đáp ứng yêu cầu của chúng tôi về tính linh hoạt, khả năng xử lý chính xác dữ liệu cặp đầu và hiệu suất cao. Chúng tôi đã phát triển Trimmomatic như một công cụ xử lý dữ liệu đầu vào linh hoạt và hiệu quả hơn, có khả năng xử lý chính xác dữ liệu cặp đầu.

Kết quả: Giá trị của việc xử lý dữ liệu đọc NGS đã được chứng minh cả trong các tác vụ dựa trên tham chiếu và không dựa trên tham chiếu. Trimmomatic cho thấy sản phẩm đầu ra ít nhất là ngang bằng, và trong nhiều trường hợp còn vượt trội hơn, so với các công cụ khác trong tất cả các kịch bản đã được kiểm nghiệm.

Tính khả dụng và triển khai: Trimmomatic được cấp phép theo GPL V3. Công cụ này có thể chạy trên nhiều nền tảng (cần Java 1.5+) và có sẵn tại http://www.usadellab.org/cms/index.php?page=trimmomatic

Liên hệ: [email protected]

Thông tin bổ sung: Dữ liệu bổ sung có sẵn trực tuyến tại Bioinformatics.

MEGA7: Phân Tích Di Truyền Phân Tử Phiên Bản 7.0 cho Dữ Liệu Lớn Hơn Dịch bởi AI
Molecular Biology and Evolution - Tập 33 Số 7 - Trang 1870-1874 - 2016
Tóm tắt

Chúng tôi giới thiệu phiên bản mới nhất của phần mềm Phân Tích Di Truyền Phân Tử (MEGA), bao gồm nhiều phương pháp và công cụ tinh vi cho phân loại gen và y học phân loại. Trong lần nâng cấp lớn này, MEGA đã được tối ưu hóa để sử dụng trên các hệ thống máy tính 64-bit nhằm phân tích các tập dữ liệu lớn hơn. Các nhà nghiên cứu giờ đây có thể khám phá và phân tích hàng chục nghìn chuỗi trong MEGA. Phiên bản mới cũng cung cấp một trình hướng dẫn nâng cao để xây dựng cây thời gian và bao gồm chức năng mới để tự động dự đoán các sự kiện sao chép gen trong các cây họ gen. MEGA 64-bit được cung cấp qua hai giao diện: đồ họa và dòng lệnh. Giao diện người dùng đồ họa (GUI) là một ứng dụng dành cho Microsoft Windows có thể sử dụng cả trên Mac OS X. Dòng lệnh MEGA có sẵn dưới dạng ứng dụng gốc cho Windows, Linux và Mac OS X. Chúng được thiết kế để sử dụng trong phân tích quy mô lớn và phân tích kịch bản. Cả hai phiên bản đều được cung cấp miễn phí từ www.megasoftware.net.

#MEGA #phân tích di truyền #phân loại gen #y học phân loại #dữ liệu lớn #phần mềm khoa học
edgeR: một gói Bioconductor cho phân tích biểu hiện khác biệt của dữ liệu biểu hiện gen số Dịch bởi AI
Bioinformatics - Tập 26 Số 1 - Trang 139-140 - 2010
Tóm tắt

Tóm tắt: Dự kiến các công nghệ biểu hiện gen số (DGE) mới nổi sẽ vượt qua công nghệ chip vi thể trong tương lai gần cho nhiều ứng dụng trong gen học chức năng. Một trong những nhiệm vụ phân tích dữ liệu cơ bản, đặc biệt cho các nghiên cứu biểu hiện gen, liên quan đến việc xác định liệu có bằng chứng cho thấy sự khác biệt ở số lượng của một bản sao hoặc exon giữa các điều kiện thí nghiệm hay không. edgeR là một gói phần mềm Bioconductor dùng để kiểm tra sự biểu hiện khác biệt của dữ liệu đếm lặp lại. Một mô hình Poisson phân tán quá mức được sử dụng để tính đến cả tính biến thiên sinh học và kỹ thuật. Các phương pháp Bayes thực nghiệm được sử dụng để điều chỉnh mức độ phân tán quá mức giữa các bản sao, cải thiện độ tin cậy của suy diễn. Phương pháp này có thể được sử dụng ngay cả với các mức độ lặp lại tối thiểu, miễn là ít nhất một kiểu hình hoặc điều kiện thí nghiệm được lặp lại. Phần mềm này còn có thể có các ứng dụng khác ngoài dữ liệu giải trình tự, chẳng hạn như dữ liệu số lượng peptide proteome.

Khả năng truy cập: Gói này có sẵn miễn phí theo giấy phép LGPL từ trang web Bioconductor (http://bioconductor.org).

Liên lạc: [email protected]

MrBayes 3: Suy luận phát sinh loài Bayesian dưới các mô hình hỗn hợp Dịch bởi AI
Bioinformatics - Tập 19 Số 12 - Trang 1572-1574 - 2003
Tóm tắt

Tóm lược: MrBayes 3 thực hiện phân tích phát sinh loài Bayesian kết hợp thông tin từ các phần dữ liệu hoặc các phân tập khác nhau tiến hóa dưới các mô hình tiến hóa ngẫu nhiên khác nhau. Điều này cho phép người dùng phân tích các tập dữ liệu không đồng nhất bao gồm các loại dữ liệu khác nhau—ví dụ: hình thái, nucleotide và protein—và khám phá nhiều loại mô hình cấu trúc kết hợp tham số duy nhất và chung của phần. Chương trình sử dụng MPI để song song hóa kết hợp Metropolis trên các cụm máy Macintosh hoặc UNIX.

Khả dụng: http://morphbank.ebc.uu.se/mrbayes

Liên hệ: [email protected]

* Địa chỉ thông tin liên lạc.

#phân tích phát sinh loài Bayesian #mô hình hỗn hợp #dữ liệu không đồng nhất #song song hóa #phát sinh loài
Phương Trình Dạng Khép Kín Dự Báo Độ Dẫn Thủy Lực của Đất Không Bão Hòa Dịch bởi AI
Soil Science Society of America Journal - Tập 44 Số 5 - Trang 892-898 - 1980
Tóm tắt

Một phương trình mới và tương đối đơn giản cho đường cong áp suất chứa nước trong đất, θ(h), được giới thiệu trong bài báo này. Dạng cụ thể của phương trình này cho phép đưa ra các biểu thức phân tích dạng khép kín cho độ dẫn thủy lực tương đối, Kr, khi thay thế vào các mô hình độ dẫn dự đoán của N.T. Burdine hoặc Y. Mualem. Các biểu thức thu được cho Kr(h) chứa ba tham số độc lập có thể được xác định bằng cách điều chỉnh mô hình giữ nước trong đất đã đề xuất với dữ liệu thực nghiệm. Kết quả thu được từ các biểu thức khép kín dựa trên lý thuyết Mualem được so sánh với dữ liệu độ dẫn thủy lực quan sát cho năm loại đất có đặc tính thủy lực khác nhau. Độ dẫn thủy lực không bão hòa được dự đoán tốt trong bốn trên năm trường hợp. Kết quả cho thấy rằng việc mô tả hợp lý đường cong giữ nước trong đất ở mức chứa nước thấp là quan trọng để dự đoán chính xác độ dẫn thủy lực không bão hòa.

#Herardic #độ dẫn thủy lực #đường cong giữ nước đất #lý thuyết Mualem #mô hình dự đoán #độ dẫn thủy lực không bão hòa #dữ liệu thực nghiệm #điều chỉnh mô hình #đặc tính thủy lực giấy phép.
Bộ công cụ phân tích bộ gen: Một khung MapReduce cho việc phân tích dữ liệu giải trình tự DNA thế hệ tiếp theo Dịch bởi AI
Genome Research - Tập 20 Số 9 - Trang 1297-1303 - 2010

Các dự án giải trình tự DNA thế hệ tiếp theo (NGS), chẳng hạn như Dự án Bộ Gen 1000, đã và đang cách mạng hóa sự hiểu biết của chúng ta về sự biến dị di truyền giữa các cá nhân. Tuy nhiên, các tập dữ liệu khổng lồ được tạo ra bởi NGS—chỉ riêng dự án thí điểm Bộ Gen 1000 đã bao gồm gần năm terabase—làm cho việc viết các công cụ phân tích giàu tính năng, hiệu quả và đáng tin cậy trở nên khó khăn ngay cả đối với những cá nhân có kiến thức tính toán phức tạp. Thực tế, nhiều chuyên gia gặp phải giới hạn về quy mô và sự dễ dàng trong việc trả lời các câu hỏi khoa học bởi sự phức tạp trong việc truy cập và xử lý dữ liệu do những máy này tạo ra. Trong bài báo này, chúng tôi thảo luận về Bộ công cụ Phân tích Bộ Gen (GATK) của chúng tôi, một khung lập trình có cấu trúc được thiết kế để tạo điều kiện thuận lợi cho sự phát triển của các công cụ phân tích hiệu quả và đáng tin cậy dành cho các máy giải trình tự DNA thế hệ tiếp theo sử dụng triết lý lập trình hàm MapReduce. GATK cung cấp một bộ mẫu truy cập dữ liệu nhỏ nhưng phong phú, bao trùm hầu hết các nhu cầu của công cụ phân tích. Việc tách biệt các tính toán phân tích cụ thể khỏi hạ tầng quản lý dữ liệu chung cho phép chúng tôi tối ưu hóa khung GATK về độ chính xác, độ ổn định, và hiệu quả CPU và bộ nhớ, cũng như cho phép phân giải song song bộ nhớ chia sẻ và phân tán. Chúng tôi nhấn mạnh các khả năng của GATK bằng cách mô tả việc triển khai và ứng dụng các công cụ đáng tin cậy và dung nạp quy mô như máy tính phủ và gọi đa hình đơn nucleotide (SNP). Chúng tôi kết luận rằng khung lập trình GATK cho phép các nhà phát triển và nhà phân tích nhanh chóng và dễ dàng viết các công cụ NGS hiệu quả và đáng tin cậy, nhiều công cụ trong số đó đã được tích hợp vào các dự án giải trình tự quy mô lớn như Dự án Bộ Gen 1000 và Atlas Bộ Gen Ung thư.

#khoa học #giải trình tự DNA #Bộ Gen 1000 #GATK #MapReduce #phân tích bộ gen #sự biến dị di truyền #công cụ NGS #phân giải song song #SNP #Atlas Bộ Gen Ung thư
Đo Lường Các Tính Chất Đàn Hồi và Độ Bền Nội Tại của Graphene Dạng Đơn Lớp Dịch bởi AI
American Association for the Advancement of Science (AAAS) - Tập 321 Số 5887 - Trang 385-388 - 2008

Chúng tôi đã đo lường các đặc tính đàn hồi và độ bền phá vỡ nội tại của màng graphene dạng đơn lớp tự do bằng phương pháp nén nano trong kính hiển vi lực nguyên tử. Hành vi lực-chuyển vị được diễn giải theo khung phản ứng ứng suất-biến dạng đàn hồi phi tuyến và cho ra độ cứng đàn hồi bậc hai và bậc ba lần lượt là 340 newton trên mét (N m\n –1\n ) và –690 Nm\n –1\n . Độ bền phá vỡ là 42 N m\n –1\n và đại diện cho sức mạnh nội tại của một tấm không có khuyết tật. Những thông số này tương ứng với mô đun Young là\n E\n = 1.0 terapascals, độ cứng đàn hồi bậc ba\n D\n = –2.0 terapascals, và sức mạnh nội tại σ\n int\n = 130 gigapascals cho than chì khối. Những thí nghiệm này thiết lập graphene là vật liệu mạnh nhất từng được đo lường, và cho thấy rằng các vật liệu nano hoàn hảo về mặt nguyên tử có thể được thử nghiệm cơ học đối với các biến dạng vượt xa khỏi vùng tuyến tính.

#graphene #tính chất đàn hồi #độ bền phá vỡ #nén nano #kính hiển vi lực nguyên tử #ứng suất-biến dạng phi tuyến #mô đun Young #vật liệu nano #sức mạnh nội tại
VESTA 3 cho trực quan hóa ba chiều dữ liệu tinh thể, thể tích và hình thái Dịch bởi AI
Journal of Applied Crystallography - Tập 44 Số 6 - Trang 1272-1276 - 2011

VESTA là một hệ thống trực quan hóa ba chiều dành cho nghiên cứu tinh thể học và tính toán trạng thái điện tử. Nó đã được nâng cấp lên phiên bản mới nhất, VESTA 3, với các tính năng mới bao gồm vẽ hình thái bên ngoài của các tinh thể; chồng chéo nhiều mô hình cấu trúc, dữ liệu thể tích và mặt tinh thể; tính toán mật độ điện tử và hạt nhân từ các tham số cấu trúc; tính toán hàm Patterson từ các tham số cấu trúc hoặc dữ liệu thể tích; tích hợp mật độ điện tử và hạt nhân bằng phân tách Voronoi; trực quan hóa bề mặt đều với nhiều mức độ khác nhau; xác định mặt phẳng tối ưu cho các nguyên tử được chọn; một thuật toán tìm kiếm liên kết mở rộng để cho phép các tìm kiếm tinh vi hơn trong các phân tử phức tạp và cấu trúc giống như lồng; thao tác hoàn tác và làm lại trong giao diện người dùng đồ họa; và cải tiến đáng kể hiệu suất trong việc hiển thị bề mặt đều và tính toán các lát cắt.

Phần mềm khai thác dữ liệu WEKA Dịch bởi AI
Association for Computing Machinery (ACM) - Tập 11 Số 1 - Trang 10-18 - 2009

Đã hơn mười hai năm trôi qua kể từ khi WEKA được phát hành công khai lần đầu tiên. Trong thời gian đó, phần mềm đã được viết lại hoàn toàn từ đầu, phát triển mạnh mẽ và hiện nay đi kèm với một tài liệu về khai thác dữ liệu [35]. Hiện tại, WEKA được chấp nhận rộng rãi trong cả lĩnh vực học thuật và kinh doanh, có một cộng đồng năng động, và đã được tải xuống hơn 1.4 triệu lần kể từ khi được đưa lên Source-Forge vào tháng 4 năm 2000. Bài báo này cung cấp một cái nhìn tổng quan về WEKA workbench, xem xét lịch sử của dự án, và, dựa trên phiên bản ổn định 3.6 gần đây, tóm tắt những gì đã được bổ sung kể từ phiên bản ổn định cuối cùng (Weka 3.4) được phát hành vào năm 2003.

Một số mô hình ước tính sự không hiệu quả về kỹ thuật và quy mô trong phân tích bao hàm dữ liệu Dịch bởi AI
Management Science - Tập 30 Số 9 - Trang 1078-1092 - 1984

Trong bối cảnh quản lý, lập trình toán học thường được sử dụng để đánh giá một tập hợp các phương án hành động thay thế có thể, nhằm lựa chọn một phương án tốt nhất. Trong khả năng này, lập trình toán học phục vụ như một công cụ hỗ trợ lập kế hoạch quản lý. Phân tích Bao hàm Dữ liệu (DEA) đảo ngược vai trò này và sử dụng lập trình toán học để đánh giá ex post facto hiệu quả tương đối của các thành tựu quản lý, dù chúng được lập kế hoạch hoặc thực hiện như thế nào. Lập trình toán học do đó được mở rộng để sử dụng như một công cụ kiểm soát và đánh giá các thành tựu quá khứ cũng như công cụ hỗ trợ lập kế hoạch cho hoạt động tương lai. Hình thức tỷ lệ CCR được giới thiệu bởi Charnes, Cooper và Rhodes, như một phần của cách tiếp cận Phân tích Bao hàm Dữ liệu, bao hàm cả sự không hiệu quả về kỹ thuật và quy mô thông qua giá trị tối ưu của hình thức tỷ lệ, được thu được trực tiếp từ dữ liệu mà không cần yêu cầu định trước các trọng số và/hoặc phân định rõ ràng các dạng chức năng giả định của mối quan hệ giữa đầu vào và đầu ra. Một sự tách biệt giữa hiệu quả kỹ thuật và hiệu quả quy mô được thực hiện bởi các phương pháp phát triển trong bài báo này mà không làm thay đổi các điều kiện sử dụng DEA trực tiếp trên dữ liệu quan sát. Sự không hiệu quả về kỹ thuật được xác định bởi sự thất bại trong việc đạt được các mức đầu ra tốt nhất có thể và/hoặc việc sử dụng quá nhiều lượng đầu vào. Các phương pháp để xác định và điều chỉnh phạm vi của những sự không hiệu quả này, được cung cấp trong các công trình trước, được minh họa. Trong bài báo hiện tại, một biến mới được giới thiệu, cho phép xác định liệu các hoạt động được thực hiện trong các vùng có lợi suất tăng, không đổi hay giảm (trong các tình huống đa đầu vào và đa đầu ra). Các kết quả được thảo luận và liên hệ không chỉ với kinh tế học cổ điển (đầu ra đơn) mà còn với các phiên bản kinh tế học hiện đại hơn được xác định với “lý thuyết thị trường có thể tranh đấu.”

#Phân tích bao hàm dữ liệu #không hiệu quả kỹ thuật #không hiệu quả quy mô #lập trình toán học #lý thuyết thị trường có thể tranh đấu
Tổng số: 3,949   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 10